查看原文
其他

蚂蚁多模态文档理解模型论文入选顶会cvpr22

极客蚁 蚂蚁技术AntTech
2024-08-22

导 言

CVPR即IEEE国际计算机视觉与模式识别会议,每年由IEEE举办,是计算机视觉和模式识别领域的顶级会议。近日,来自蚂蚁集团机器智能团队和上海交通大学的研究者共同提出了多模态文档理解模型XYLayoutLM,该模型可极大地改善文档自动化读取过程中,因表单结构复杂、文本过长等导致的错误理解问题,提高了内容读取的准确率。相关论文已被CVPR2022录用。

论文标题:XYLayoutLM:TowardsLayout-AwareMultimodalNetworksForVisually-RichDocumentUnderstanding
论文地址:https://arxiv.org/abs/2203.06947


目 录

1.多模态文档理解技术背景
2.合理的阅读顺序的定义
3.方法介绍
3.1AugmentXYCut
3.2DilatedConditionalPositionEncoding
4.实验结果
5.可视化

01 多模态文档理解技术背景


图1. 多模态文档理解数据示例
(来自XFUN数据集)

近年来,多模态文档理解在各类场景得到了广泛的应用。它要求我们结合图像,文本和布局信息对扫描件或者pdf文件进行理解。如图1所示,常见的多模态文档理解数据往往是一些由用户填写的表格,除了文本信息之外,还拥有着丰富的语义和布局信息。除此之外,多模态的模型还被应用于文档自动处理,文本关系提取和网页分类定性等等一系列现实场景。然而,需要强调的是,这个问题并不简单。这是因为表单的结构复杂多变,布局信息难以提取。

目前学术界中,针对多模态文档理解的模型方案,通常都需要先经过对图像进行ocr扫描,解析出图中的文本和文本框位置,再将得到的文本和文本框坐标,按照ocr解析出的默认顺序,将文本框及其对应的内容输入给模型。

然而,和普通的文档图像不同,诸如票据、表单、卡证等数据,其文本位置通常无法按照传统的“从左至右“或者”从上到下“进行简单排序,而是存在丰富的层次结构。一个合理的文本框阅读顺序(proper reading order),可以帮助模型更好得理解图像讯息。

另一个局限性是许多现有的模型使用了长度固定的位置编码(position embeddings),这会导致模型在训练完成后无法处理更长的输入序列。当然我们可以强行使用插值算法补全缺失的部分,但还是会影响文档理解的结果。

针对上述两个缺陷,我们提出了XYLayoutLM模型,希望改善文档自动化读取过程中,表单结构复杂、文本过长等导致的错误理解问题,提高内容读取的准确率。

02 合理的阅读顺序的定义


图2. 不同的阅读顺序

首先我们解释一下合理阅读顺序的定义。一般来说,对于一个给定的文档和完美的ocr工具,人类观察所有文本框的阅读顺序即为一个合理阅读顺序。现实情况却是,ocr识别出的文本框位置往往不够准确,甚至会存在明显在同一行但是y轴差距过大的一些文本框。

这些噪声一方面会使得存在非唯一的合理阅读顺序,同时也会使得简单的对文本框进行排序的规则失效。如图2a和2b中所示,不管是按照先Y后X降序还是X+Y降序排序,得到的阅读顺序都有不对的地方,也就是标红的序号。而我们通过调研文章发现,XY Cut[1]这个算法能获得合理的阅读顺序。

03 方法介绍


图3. 模型总览

图3展示了基准模型LayoutXLM[2]和我们的XYLayoutLM的区别。我们的模型输入是图像视觉特征,文本特征和文本位置特征。视觉特征是把ResNeXt-101 的特征图池化到7*7的特征图拉平。同时,两个位置编码生成器把输入文本框编码成pos embeddings和box embeddings。在此之后,我们将embeddings都拼接起来,输入具有self-attention的transformer层,输出的视觉/文本token表征被用于文档理解任务。

与基准模型 LayoutXLM不同的是,我们的XYLayoutLM有两个创新性模块:

1. 我们提出了一个Augmented XY Cut模块来对文本框进行排序,同时生成不同的合理阅读顺序,以提升模型的鲁棒性。

2. 为了替代只能生成固定长度embeddings的MLP,我们提出了DCPE模块处理文本和视觉的变长序列。

3.1 Augment XY Cut


图4. XY Cut算法

算法1. Augmented XY Cut 算法

XY Cut[1]是一个启发式的迭代算法。以水平方向的映射为例子,我们先将所有的文本框boxes映射到Y轴形成相应的一堆映射区间,得到


这个指示函数代表第i个box映射到Y轴形成的区间。我们遍历所有的i求和,得到


该函数在y点的值代表了有多少个本文框box在y点上有交集。

我们寻找使得HB(y)函数值为0的一些点y*,以它们为基础进行cut。此时,寻找所有文本框的阅读顺序被分解成了一些子问题,因此我们可以进行递归调用求解。另外,水平映射和竖直映射是交替进行的。递归的终止条件是,最后剩下的文本框在两个方向都有交集。此时,我们按照传统的先排序Y后排序X的规则确定剩下的文本框的阅读顺序。

以图4为例,我们先做一次水平映射,确定了1号和2~7号的顺序。接着,我们做竖直映射,可以确定2号、7号和3~6号的阅读顺序。继续以上过程,最终可以得到一个合理的文本框阅读顺序。

相较于启发式的XY Cut,我们提出的Augmentd XY Cut增加了算法1中的第2步,即以一定的概率给文本框的box一些小的x轴和y轴上的平移扰动,从而生成一些合理的阅读顺序,以模拟现实场景中ocr的识别噪声,从而提升模型的鲁棒性。

3.2 Dilated Conditional Position Encoding


图5. DCPE模块

现有模型的第二个局限性是position embedding的长度固定。对于这一点,最近的CPE[3]将MLP替换成了新的PEG模块来处理变长的输入序列。具体流程是先将输入tokens reshape成2D的特征,然后利用卷积去提取local信息做成position embedding。

但是,在多模态任务中直接使用CPE会遇到问题。因为对于CPE所处理的图像分类来说,它的输入tokens是有规律的图像patches,比较常见的做法是将一张图分成16*16的小patch再拉平,因此它可以reshape并且利用2D卷积来提取邻域信息。而多模态模型的输入tokens除了图像信息还有文本1D信息,其中1D信息是没法reshape成2D提取邻域信息的。

因此,我们基于CPE提出了DCPE,如图5所示。主要有2点改进:1.是将text和image的tokens分开处理,text过1D卷积,image过2D卷积,最后再合并起来。二是我们观察到多模态模型往往需要更大的感受野,举个例子,he is a very handsome boy. 这句话he和boy分别是主语和宾语,他们的关系非常重要。

而CPE中的普通卷积可能捕捉不到这种长距离的信息,因此我们使用了空洞卷积替代了标准卷积,使得在相比CPE在不额外增加计算量的前提增加了模型的感受野,进一步提升模型性能。除此之外,DCPE模块正好能使用到Augmented XY Cut带来的红利。因为阅读顺序的合理性加上特征提取能力的提升,能得到1+1>2的效果。

04 实验结果


表1. 在XFUN上XYLayoutLM与
其余baseline的结果比较
表2. 在FUNSD上XYLayoutLM与
其余baseline的结果比较

表1和表2是XYLayoutLM在两个学术数据集XFUN和FUNSD上的结果。从中可以看出我们的方案在模型参数量相当的情况下,F1 score达到了SOTA。

表3. XYLayoutLM在XFUN数据集上的消融实验

表3验证了我们提出的两个模块的有效性。其中第四行的结果表明只在基础模型上加DCPE而不考虑文本框阅读顺序的情况下提升较小,与预期相符。

表4. LayoutXLM[2]模型在XFUN数据集上
输入不同阅读顺序的结果比较

表4在LayoutXLM上测试了不同的顺序策略导致的结果,同时通过比较结果我们确定了Augmented XY Cut中的3个超参数。

表5. XYLayoutLM在XFUN上
不同DCPE结构的结果比较

表5探索了在text和image模态上是否使用空洞卷积的结果。我们发现在两个模态上均使用空洞卷积效果最好。

05 可视化


图6. Augmented XY Cut 算法对文本排序的结果

图6是利用Augmented XY Cut对文本框顺序排序后输出的一个结果。其阅读顺序比默认顺序更加合理。
图7. XYLayoutLM和LayoutXLM[2]文本
分类预测的结果

图7是LayoutXLM和我们的XYLayoutLM预测分类的结果。从中也可以看出我们的方法的有效性。

06 总结与展望


本文先介绍了文档理解中合理阅读顺序的定义和重要性,随后提出了关注文本阅读顺序的多模态文档理解XYLayoutLM方案,通过算法创新,生成不同的合理阅读顺序,同时考虑可变长度的文本输入,以提升模型的鲁棒性。该方法比基准方法在FUNSD和XFUN两个数据集上的指标高出了2%左右。

XYLayoutLM现已被应用于蚂蚁集团的自动化表单理解业务中。未来,我们将从如下方向继续在文档理解上探索和实践:
  • 模型直接预测文本阅读顺序的探索;
  • 用于支付宝小程序页面理解;
  • 图像视觉特征的进一步建模,捕获更为丰富的语义信息。

参考文献
[1] Jaekyu Ha, Robert M Haralick, and Ihsin T Phillips. Recursive xy cut using bounding boxes of connected components. In ICDAE, 1995.
[2] Yiheng Xu, Tengchao Lv, Lei Cui, Guoxin Wang, Yijuan Lu, Dinei Florencio, Cha Zhang, and Furu Wei. Layoutxlm: Multimodal pre-training for multilingual visually-rich document understanding. arXiv preprint arXiv:2104.08836, 2021.
[3] Xiangxiang Chu, Zhi Tian, Bo Zhang, Xinlong Wang, Xiaolin Wei, Huaxia Xia, and Chunhua Shen. Conditional positional encodings for vision transformers. arXiv preprint arXiv:2102.10882, 2021.


延伸阅读:



继续滑动看下一个
蚂蚁技术AntTech
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存